Combinaison des caractéristiques des termes pour l'extension de requêtes en recherche d'information dans les documents semi-structurés
نویسندگان
چکیده
In traditional Information Retrieval (IR), users often express their needs using simple keywords, because this is the most simple way to query systems. Queries composed of simple keyword terms are also very used in structured IR (i.e. IR on structured documents like XML documents), since they do not require any knowledge of the documents structure. However, such queries are often not sufficient to describe precisely users’ needs. In this paper, we propose a new approach of Structured Relevance Feedback on queries composed of simple keywords terms. This approach allows on the one hand to enrich the initial query according to relevance judgements, and on the other hand, to express a degree of preference for each keyword, by weighting them. Our approach is based on a combination of term features in relevant elements. Our proposition is evaluated thanks to the INEX evaluation campaign and results show the interest of our methods. MOTS-CLÉS : reformulation, document XML, contexte, contenu, RI.
منابع مشابه
Unités d'indexation et taille des requêtes pour la recherche d'information en français
RÉSUMÉ. Dans cet article, nous nous intéressons à la recherche d’information en Français. Nous analysons différentes techniques d’indexation (basées sur des lemmes, des radicaux ou des termes) et leur fusion. Nous analysons également l’influence de la prise en compte des différentes parties d’une requête. Notre étude porte sur 6 campagnes d’évaluation de CLEF Français. Nous montrons que l’utili...
متن کاملModèle unifié pour la recherche d'information sémantique
Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...
متن کاملDocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML
Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt ...
متن کاملRecherche d'information dans des documents structurés par proximité des termes
RÉSUMÉ. Nous présentons une méthode pour calculer un score d’un élément quelconque d’un document structuré qui prend en compte la proximité des termes de la requête dans le texte du document. Plus précisément nous définissons autour de chaque occurrence d’un terme de la requête une fonction d’influence. Pour une occurrence qui apparaît dans le texte proprement dit, cette fonction d’influence dé...
متن کاملExpansion de requêtes pour la recherche d'information multilingue
1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...
متن کامل